# -*- coding: utf-8 -*-
# 从 HuggingFace 下载数据集 lansinuote/ChnSentiCorp
# 该数据集用于中文情感分类，包含 text 和 label 两个字段

from datasets import load_dataset

# 加载数据集
# path: 数据集名称（可以是HF上的数据集名字，也可以是本地脚本路径）
# cache_dir: 数据集下载和缓存的目录
# 严格从本地加载
dataset = load_dataset(
    path="lansinuote/ChnSentiCorp",
    cache_dir="/root/autodl-tmp/data/raw/ChnSentiCorp",
)

# 打印数据集结构（train/validation/test 三个子集）
print(dataset)
# 打印一条训练数据样例，包含文本和情感标签
print(dataset["train"][0])